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摘 ”要 
LLAMA 是 最 近 几 个 月 最 流行 的 开源 大 语言 模型 ， 本 文 给 出 该 模型 的 数学 形式 。 
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Abstract 


LLAMA is the most popular open-source Large Language Model(LLM) model in the last few months. 


This paper presents its mathematic formulas in detail. 
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1 引言 


随 着 chatGPT 的 发 布 ， 大 语言 模型 成 为 人 工 智能 领域 的 研究 热点 。LLAMA[3] 开源 且 性 能 
指标 接近 chatGPT， 很 多 机 构 开发 大 模型 时 都 以 LLAMA 为 基础 ， 例 如 Baichuan-7B ! 采用 了 与 
LLAMA 相同 的 模型 结构 。2023 年 7 月 18 日 ，LLAMA-2[2] 发 布 ， 模 型 架构 不 变 ， 优 化 代码 性 
能 ， 同 时 允许 商用 。 

为 了 迅速 应 用 于 业务 、 严 谨 地 理论 研究 ， 本 文 给 出 LLAMA 模型 的 数学 形式 ， 将 程序 代码 
改写 为 数学 公式 。 程 序 代码 与 原 论文 不 一 致 的 地 方 ， 以 程序 代码 为 准 。 
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图 1: 激活 函数 silu 


2 畏 数 定义 


作为 准备 ， 本 节 定 义 几 个 函数 。 目 前 pytorch 代码 中 数组 的 组 织 方式 是 行 优先 ,序号 从 0 开 
台 ， 因 此 本 文中 的 向 量 、 和 矩阵 也 按 行 优 移 来 定义 ， 算 阵 元 素 的 序号 也 从 0 开始 。 

任意 给 定 正 整数 m 和 n, 行 向 量 用 黑体 小 写字 母 表示 ， 形 式 为 x = (zo,z1 2Zn-1)。 珑 
阵 用 大 写字 和 母 表示 ， 形 式 为 


X00 01 TOomn_1 
10 T11 Zln-1 
二 二 
Tm-10 Tm-ll ”mm 一 1Ln 一 1 
软 大 函数 (softmax) 定义 为 
1 
smax(z) i es (e™, e”l, i : em) 
smax (zo:) 
smax(z1:) 
smax(X) = . = (smax(zo0:); smax(7z1:);...;smax(zZm-_1:)), 


smax(zZm-_1:) 
这 里 的 zz 二 (Zio; Til).…, Vim-1)， 圆 括号 里 的 分 号 表示 换行 。 
对 向 量 或 矩阵 求 对 数 时 ， 对 数 作用 到 它们 的 每 一 个 元 素 上 ， 即 


log(z) = (log(zo)， log(z1), me ,log (Zn—1)), 
log(xo0) log(Zzol) :+ log(zo0,n-1) 
log(X) = 2 I ei 
log(zxm_1,0) log(zTm_1,1) 下 log(Zzm_ln 1) 
sjilu(Z) = 本 
1 十 e-z” 


silu 的 图 像 见 图 1. 函数 silu 作用 到 的 向 量 和 甜 阵 上 时 ， 它 作用 到 每 一 个 元 素 上 。 


均 方 层 归 一 化 (Root Mean Square Layer Normalization ) 函数 


| 01 01 ol | 

We 区 2 |， 

ee 

这 里 的 0; = 二 1 Toi = 1,2,..., mo 
假设 行 向 量 人 = (20, 2 ,2 1)， 将 行 向 量 与 矩阵 相 加 定义 为 逐 行 相 加 ， 即 
X00 十 人 0 2Z01 十 21 ”20n1 十 Zr-l 
X11 + Yo TE Wn ltn 1 
及 十 爹 王 
加 10 十 2Z0 7Zm_L1I 十 21 mLn- | 


旋转 位 置 编码 (Rotary Position Embeddings, RoPE)[1] 是 大 语言 模型 中 的 常用 组 件 ， 其 设计 目 
标 是 “通过 绝对 位 置 编 码 的 方式 实现 相对 位 置 编码 ”。 详 细 推 导 过 程 见 设计 者 个 人 网 站 ? 和 [5]。 
对 任意 给 定 的 偶数 ne > 2， 词 碎 序 列 长 度 n3。 对 Vi = 0,1,.….,ns 一 1， 旋 转 矩 阵 


cosi00 sini0o 0 0 0 0 
— sinibo cosi00 0 0 I.. 0 0 
| 0 0 cosid» sinig» 0 0 | 
| 0 0 一 sin10。 cos10。 ... 0 0 | 
0 0 0 0 ... cosibno2 sini0n 
0 0 0 0 |... —sinibno_2 cost 9? 


显然 矩阵 Ai 尺寸 是 Ne x ne, 典型 值 是 128 x 128。 对 于 弧度 Q, t= 0， 2; 6， 726 一 5 原始 论 
文 [1] 使 用 固定 值 
Gt = 10000-% re. 


对 任意 实数 行 向 量 x = (zo,z1 ,Zne-1) 和 非 负 整数 i， 定 义 旋转 函数 为 


rope(z,1) = zA;. (1) 
利用 矩阵 4; 中 元 素 的 变化 规律 ， 将 式 (1) 中 的 矩阵 向 量 乘 改 写成 向 量 乘 ， 可 以 节约 计算 量 
rope(¥,i) = £2 ® E11 (71,T0,—73, TL2,..., —Tro 1, Tr 2) ® é, 
这 里 的 算 符 @ 表 示 向 量 按 元 素 相 乘 ,6 = (cosi60, cosi00, cosi0, cosi0o,... ,cosi0no_2,cosi0ns_2)， 
é&2 = (sinibo,sinibo,sinigo,sinigo,. .sinip asini0 2)。 


对 尺寸 为 na x ne 的 矩阵 X， 逐 行 旋转 
rope(Zo:;,0) 


rope(z1:, 1) 


rope(X,i) = = (rope(zo:, 0); rope(z1:, 1);... ;rope(zns_1:,7n3 — 1)). 


rope(zns_1:,n3 — 1) 


2https://kexue.fm/archives/8265 
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Z31 = rnor(Z31) 层 归 一 化 


Y? = rnor(Y) 层 归 一 化 
Y= 2Z0+R9O 残 差 
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2: LLAMA-7B 模型 全 貌 。 词 碎 序 列 长 度 为 ns， 解码 器 层 数 为 32。 


3 LLAMA 模型 全 貌 


定义 几 个 常数 , 并 给 出 典型 值 , 典型 值 是 Meta 公司 预 训练 模型 的 一 种 参数 配置 , 即 LLAMA- 
2-7B 的 配置 ， 其它 参数 配置 见 LLAMA 源码 网 站 ”。ni 为 词 表 里 的 词 碎 数量 ,典型 值 32000; ma 
为 词 碎 典 人 宽度 ， 典 型 值 4096; ns 输入 序列 长 度 ， 正 整数 ， 进 入 模型 前 指定 ， 在 模型 中 保持 不 
变 ; ns 为 自 注意 力 头 数 ， 典 型 值 32; ne 为 单 头 宽度 ， 等 于 苦 ， 典 型 值 128; nr 为 全 连接 层 宽 

度 ， 典 型 值 11008; ns 为 解码 器 层 数 ， 典 型 值 32。 需 要 注意 , 这儿 个 常数 的 含义 与 [4] 中 同名 党 
数 的 含义 相同 。 

LLAMA 模型 的 全 貌 见 图 2。LLAMA 模型 的 输入 是 词 碎 序 列 ， 形 式 为 


<S>L 词 碎 1 ] 词 碎 2 | 词 碎 3 下 词 碎 Nn3 2 词 碎 Nn3 Gy 1 


这 里 的 , 是 显 式 空格 ， 用 来 分 隔 词 碎 。 词 碎 0 永远 是 <s>， 表 示 序 列 的 开头 。 例 如 句子 


Whouisutheu45th ,President of, ,the, ,United, /States? 


对 应 的 词 碎 序 列 是 


3https://huggingface.co/meta-llama 


<s>L Whoisuthe 4 5 thi Presidenti of the', ,United, ,States.? 


词 碎 进入 LLAMA 之 后 ， 立即 被 转化 为 向 量 。 相 应 地 ， 词 碎 序 列 转化 为 矩阵 2 ，2 的 每 一 
个 行 向 量 对 应 一 个 词 碎 。 接 下 来 , 矩阵 20 被 喂 给 第 0 个 解码 器 , 第 0 解码 器 输出 矩阵 27, 矩阵 
21 随后 被 喂 给 第 1 个 解码 器 。 这 样 依次 操作 , 第 ns 一 1 个 解码 器 的 输出 为 2”, 这 也 是 LLAMA 
模型 的 输出 。 


4 制作 输入 序列 


输入 序列 可 以 是 任意 指定 的 一 段 文本 , 然后 转化 为 一 个 词 碎 序 列 , 具体 的 转化 方法 有 字 对 编 
人 码 BytePairEncoding、WordPiece 和 Unigram Language Model. 词 碎 词 典 记 为 C = {co,cl) ,cn 1 
词典 中 包含 几 个 特殊 的 词 雄 , <unk>、<s>、</s>, 含义 分 别 为 未 定义 、 序 列 开头 、 序 列 结尾 。 对 中 
文 来 说 ,， 词 碎 是 单个 字 、 单 个 标点 符号 、 单 个 字 对 应 的 字 节 。 例 如 ”你 ”好 ”对 应 的 词 碎 是 它们 
自身 ”你 "、” 好 ”， 而 ” 啊 ” 被 拆 分 成 3 个 词 碎 <0xE5>u<0x95>u<0x8A>。 对 英文 来 说 ， 词 碎 是 组 
成 单词 的 片段 ， 任 何 一 个 单词 都 可 以 分 割 成 寿 干 词 雄 ， 例 如 unaffable 能 分 割 成 una_ffuable。 

将 输入 文本 中 的 中 文 、 甘 文 全 部 转化 为 词 碎 ， 就 得 到 词 碎 形 式 的 输入 序列 ， 此 后 提 及 的 输 
人 序列 均 指 词 雁 形 式 的 输入 序列 。 

词典 的 中 每 个 词 雁 c; 都 谋 和 到 一 个 行 向 量 d;，q; 的 尺寸 为 1 x m2,， 尺寸 典型 值 为 1 x 4096。 
将 所 有 的 行 向 量 qd; 按 顺序 排列 起 来 ， 组 成 矩阵 DD = (di; dz;.….;dn)， 尺寸 为 ni x n2， 尺寸 典 
型 值 32000 x 4096。 输 入 序列 序列 记 为 了 ， 形 式 为 

TS ly 

这 里 的 5€EC,i 二 0,1 .03 一 1。 输 入 序列 了 中 词 雁 的 位 置 编 号 记 为 志 = (to, 妇 1,.….,tns-1), 在 
词典 C 中 的 编号 记 为 = (如 ,自如 1)， 显 然 友 E{01 na 一 1 Ee {0,1,...,ni 一 1}。 

输入 序列 


<S>lUWholuisithe45thuPresidentuof the United, ,States.? 
的 位 置 编 码 为 
和 (0， 1,2.3,4,.5,6,7,8,9,10,11,12, 13)， 


在 词典 C 中 的 编号 是 
£ = (1,11644, 338, 278, 29871, 29946, 29955, 386, 7178, 310, 278, 3303, 3900, 29973). 


5 遮挡 算 阵 


0 一 co 一 co 一 CO 
0 0 一 Co 一 CO 


矩阵 M 的 尺寸 是 na xma， 典 型 值 128 x 128。 主 对 角 线 以 及 下 三 角 元 素 值 为 0， 上 三 角 元 素 值 为 
一 00。 在 实际 计算 时 , -co 的 取 值 是 M 所 属 数据 类 型 所 能 表示 的 最 小 值 。 例如 torch.float32 的 
最 小 值 是 -3.40282 x 1038，torch.float16 的 最 小 值 是 -65504。 


6 解码 占 


输入 LLAMA 模型 的 样本 是 词 碎 序列 ， 不 能 直接 进行 矩阵 运算 、 向 量 运 算 ， 需 要 先 转换 成 
和 抢 阵 形式 ， 即 矩阵 2%。 这 个 转换 工作 在 第 0 个 解码 器 前 完成 。 给 定 输入 序列 r = T7074...Ths-1。 
对 ;= 0,1 ,03 一 1， 将 万 的 第 去 取出 来 ， 放 在 矩阵 20 的 第 去 行 。20 的 尺寸 为 na x na， 典 
型 值 为 ns x 4096 。 

本 节 里 的 各 个 子 层 均 在 第 0 个 解码 器 ， 不 再 每 次 说 明 。 


6.1 层 归 一 化 子 层 


230 = rnor(2°), 


和 矩阵 20 的 尺寸 为 ns x n>， 典 型 值 为 n3 x 4096。 


6.2 自 注意 力 子 层 


引入 “ 查 ” 权 重 和 矩阵 WY， 尺寸 na x nz， 典型 值 4096 x 4096， 上 标 0 对 应 解码 器 的 编号 。 
将 (Wo1)7 简 记 为 Wo17, “可 ” 矩阵 


Q° -30V1o17， 
尺寸 nsxn2, 典型 值 na x 4096。 引 入 “ 键 ” 权 重 矩 阵 到 ， 尺 寸 na x n2, 典型 值 4096 x 4096， 
上 标 0 对 应 解码 器 的 编号 。“ 键 ” 移 阵 
开 0 和 ZoW27, 
尺寸 na xmna， 典 型 值 ns x 4096。 引 入 “ 值 ” 权重 矩阵 全 %9， 尺 寸 na x na， 典型 值 4096 x 4096， 
上 标 0 对 应 解码 器 的 编号 。“ 值 ”矩阵 
Tz0 至 230T7037， 
尺寸 na x na2， 典 型 值 ns x 4096。 
将 “ 查 ” 算 阵 8? 按 列 平均 分 块 ， 每 个 小 块 记 为 矩阵 8%*，i = 0,1,2,...,ns 一 1， 即 
Q@0 三 [@20 Q01 .. . Q@0"5 1]. 
QW 的 尺寸 是 ns x ne， 典 型 值 ns x 128。 将 小 块 矩阵 旋转 得 到 Q% = rope(@0)， 尺 寸 与 Q0% 
相同 ， 为 ns x ne， 典 型 值 n3 x 128。 
将 “ 键 ” 和 矩阵 K? 按 列 平均 分 块 ， 每 个 小 块 记 为 矩阵 K%*,， i = 0,1,2,...,n5 一 1， 即 
K? = [KE00, KO, a , Kms 1]. 
K% 的 尺寸 是 na x ne6， 典 型 值 na x 128。 将 小 块 矩阵 旋转 得 到 K0%” = rope(KW),， 尺寸 与 KK 
相同 ， 为 ns x ne， 典 型 值 n3 x 128。 


将 “ 值 ” 和 矩阵 V? 按 列 平均 分 块 ， 每 个 小 块 记 为 矩阵 V0 ,1 = 0,12 ,05 一 1， 即 
Vo? [V0 Vo:1 Se Vo = 
V0% 的 尺寸 是 na x ne， 典 型 值 h3 x 128。 记 
ORY ae) ye 
一 -一 一 一 十 MT ”, 
v 而 
尺寸 是 na x ne， 典 型 值 ns x 128。 将 ns 个 小 矩阵 按 行 拼 接 成 大 窍 阵 
Uo = [U0 U1 ee UO"s—1] 
尺寸 为 ns x n2， 典 型 值 na x 4096。 
引入 “出 ”权重 矩阵 WW， 尺寸 na x n2， 典 型 值 4096 x 4096。“ 出 ”和 矩阵 为 
R? = UW, 


UV ~ smax ( 


尺寸 na x n2， 典 型 值 ns x 4096。 


6.3 ” 残 美 了 于 层 


Y= 2 +R, 


尺寸 na x n2， 典 型 值 ns x 4096。 


6.4 全 连接 子 层 


Y° = mor(Y0)， 


尺寸 nsxn2, 典型 值 n3x4096。 引 入 “ 门 ” 权 重 矩 阵 W%, 尺寸 nzxn2, 典型 值 11008x4096; “下 ” 
权重 矩阵 WW%， 尺 寸 na x nr， 典 型 值 4096 x 11008;“ 上 ”权重 矩阵 WW， 尺寸 n7 x ma， 典型 
值 11008 x 4096。 今 
Y= (silu(¥OWT) @ (FOWT)) WOT, 
尺寸 n3xn2, 典型 值 na x 4096。 算 符 @ 表示 两 个 矩阵 相同 位 置 的 元 素 相 乘 。 解码 器 0 的 输出 为 
Z!=Yo+Y°, 
尺寸 ns x n2， 上 典型 值 ns x 4096。 


6.5 解码 堪 堆 登 


第 0 个 解码 器 的 输入 是 矩阵 是 20, 输出 矩阵 是 Z1, 每 个 解码 器 内 部 的 计算 过 程 都 一 样 , 第 1 
个 解码 器 的 输入 矩阵 是 2Z1, 输出 矩阵 是 22。 依次 类 推 , 第 ng 一 1 个 解码 器 的 输入 矩阵 是 Z”-!， 
输出 矩阵 是 Zrs 。 对 了 = 0,1,...,nsg 一 1， 和 矩阵 2 的 尺寸 是 na x n2，— 典 型 值 是 n3 x 4096。 


6.6 ”模型 输出 


2Zm = rnor(Z™) 是 LLAMA 模型 的 输出 ， 尺 寸 是 ns x n2， 典 型 值 是 na x 4096。 


7 生成 下 一 个 词 碎 


引入 权重 矩阵 元 ”， 尺 十 ma x n2， 典 型 值 32000 x 4096， 对 分 数 logib 矩阵 
Se 
尺寸 是 naxmi, 尺寸 典型 值 是 "sx32000。 取 出 矩阵 五 的 最 后 一 行 , 即 第 ns 一 1 行 , 记 为 向 量力, 向 
量 长 度 m, 典型 值 32000。 9 称 为 “下 对 分 ” 即 下 一 个 词 碎 的 对 分 数 。 记 $= (80;91,.… ,Pni-1)。 
为 了 引入 随机 性 、 减 少 重复 性 等 目的 ， 生 成 下 一 个 词 碎 前 ， 还 可 对 对 分 数 进行 修正 。 


7.1 分 数 修正 策略 : 重复 惩罚 
惩罚 系数 是 一 个 任意 指定 的 超 参 数 ，al > 0。 使 用 aj 修改 $ 的 元 素 值 ， 具 体 做 法 是 ， 对 
t 二 (fo, 丰 ,... ,ts-1) 指定 位 置 的 元 素 放 缩 ， 小 于 0 的 放大 aa 倍 ， 大 于 等 于 0 的 缩小 aa 倍 ， 即 
对 5 € {to,t1, Be ,tns_1}, 今 
二 al 如果 9; < 0， 
本， ”如果 9i 之 0. 
然后 用 9; 替换 $ 中 的 第 i 个 元 素 。 


7.2 分 数 修正 策略 : 温度 


温度 (temperature) 是 一 个 任意 指定 的 超 参 数 ，a2 > 0。 使 用 温度 修改 $ 的 元 素 值 ， 即 $ = 
98/a2。 为 了 方便 叙述 ， 修 正 后 的 分 数 仍 然 记 为 $。 


7.3 ”概率 采样 


今 8B = smax(9)， 向 量 长 度 由， 典型 值 32000。 从 整数 {0,1,2,...,ni 一 二 中 随机 选 出 一 
个 数 ， 整 数 i 被 选中 的 概率 为 8;。 被 选 出 来 的 编号 记 为 记 。， 对 应 的 词 碎 记 为 ms ， 将 ms 追加 
到 序列 输入 序列 的 尾部 。 如 果 ms 是 </s> 或 者 序列 达到 指定 长 度 ， 那 么 生成 过 程 结 束 。 否 
则 ， 继 续 生成 更 多 词 碎 。 


8 微调 训练 


任意 给 定 一 个 句子 ， 用 碎 词 机 (tokenizer) 将 这 个 句子 切 成 词 碎 序 列 r = mm .Tns-1, 长 度 
为 ns， 这 里 的 户 E CE = 0,1 ,na 一 1。T 中 词 碎 在 词典 C 中 的 编号 为 = (加 ,让 ,让 1)， 
例如 句子 
Whouisutheu45thuPresidentuofutheuUniteduStates?uDonalduTrump . 
对 应 的 词 碎 序 列 为 
<s>LWhouisuthe 4 5 th, President, of the, United, ,States,? Donald, Trump,. 
记 为 7 +。 序列 长 度 为 17， 即 此 时 ns = 17， 序列 71 在 词典 C 中 的 编号 是 
t! = (1, 11644, 338, 278, 29871, 29946, 29955, 386, 7178, 310, 278, 3303, 3900, 29973, 18935, 27504, 29889). 


将 序列 > 输入 模型 ， 计 算得 到 对 分 数 矩 阵 互 ， 尺 十 是 na x ni1， 尺 寸 典型 值 是 na x 32000。 
将 互 的 最 后 一 行 去 掉 ， 得 到 一 个 新 的 对 分 数 矩 阵 


hoo hor i honi-l | hoo hor 2 honm-l 
_ hio his 2 hinii hio hl ml 
= i | | ; L. ) 
hns—20 hns-2l 7 jns-2mna-1 | | hns—20 hns-2ol 7 hns-2mni-l | 


尺寸 是 m3 一 1xni, 尺寸 典型 值 是 m3 一 1x 32000。 当 输入 序列 是 71 时, 瑟 的 尺寸 是 16 x 32000。 


8.1 ”微调 格式 1 
截取 t 尾 部 的 ns 一 1 元 素 ， 记 为 ， 即 
FE= (0,, 2,... ,bs 2) = (Fb, bo, ba,..., hs 1), 
长 度 是 na 一 1。 当 输入 序列 是 T! 时 ， 
ti = (11644, 338, 278, 29871, 29946, 29955, 386, 7178, 310, 278, 3303, 3900, 29973, 18935, 27504, 29889)， 
长 度 为 16。 


8.2 ”微调 格式 2 
对 问答 型 任务 , 可 以 将 问 句 词 碎 对 应 的 位 置 编号 置 为 <unk>, 在 LLAMA 中 值 为 -100。 例如 ， 
当 输入 序列 是 T! 时 ， 
1 = (—100, —100, -100, -100, —100, —100, -100, -100, -100, —100, -100, -100, —100, 18935, 27504, 29889)， 
长 度 为 16， 尾 部 3 个 不 等 于 -100 的 值 ， 对 应 着 答 句 


DonalduTrumpu . 


8.3 ”交叉 人 
今 


H = smax(H), 


尺寸 是 na 一 2 xm1,， 尺寸 典型 值 是 m3 一 2 x 32000。 当 输入 序列 是 六 时 , 五 的 尺寸 是 16 x 32000。 
损失 函数 为 


na—2 
了 三 一 > log(hii,). 
2 100 
玉 的 第 i 行 向 量 是 前 i 十 1 个 词 碎 生 成 的 第 i 十 2 个 词 碎 的 概率 分 布 ， 石 是 真实 输入 序列 中 i 十 2 
个 词 碎 的 编号 。 训 练 的 目标 是 使 志 无 限 接近 于 0， 即 模型 生成 的 词 碎 与 输入 序列 中 词 碎 相同 。 


9 术语 对 应 关系 


本 文中 的 数学 公式 全 部 提取 自 LLAMA 模型 源码 , 为 方便 理解 , 列 出 源码 中 对 象 的 含义 、 对 
应 的 数学 符号 、 典 型 值 。 


vocab_size: 词 碎 数量 ，m1l ，32000。 

hidden_size: 词 碎 骨 和 宽度，m2z ，4096。 

seq_len， 词 碎 序列 长 度 ，n3， 每 迭代 一 步 加 1，LLAMA-7B 人 允许 的 最 大 值 2049，LLAMA-2-7B 
允许 的 最 大 值 4096 。 

num_attention_heads: 自 注意 力 头 数 ，ns，32。 

head_dim: 单 头 宽度 ，m6，128。 

intermediate_size: 全 连接 层 宽 度 ，n7z，11008。 
num_hidden_layers: 解码 器 层 数 ，mg，32。 

q_proj: 查 权 重 和 矩阵 ， 例 0， 尺寸 na x nz， 典 型 值 4096 x 4096。 
k_proj: 键 权重 矩阵 ，WY， 尺 寸 na x n2， 典 型 值 4096 x 4096。 
v_proj: 值 权重 和 矩阵， 环 宝 ， 尺 寸 na x n2， 典 型 值 4096 x 4096。 
o_proj: 出 权重 抢 阵 ， 人 风 只 ， 尺 寸 ma x n2。， 典 型 值 4096 x 4096。 
gate_proj: 门 权重 矩阵 ， 人 中， 尺寸 mw7 x ma， 典 型 值 11008 x 4096。 
down_proj: 下 权重 矩阵 ， 了 本 "6 ， 尺 寸 na x nr， 典 型 值 4096 x 11008。 
up_proj: 上 权重 矩阵 ， 环 0 ， 尺 寸 nz x nz， 典型 值 11008 x 4096。 
lm_head: W083， 尺寸 nl x mo， 典型 值 32000 x 4096。 

mlp: 全 连接 , 包含 W%、W0%、W?0"。 

self_attn: 自 注意 力 ,， 包含 Wt、W%、W%3、W04, 


对 baichuan-7B 来 说 , W_pack 是 q_proj、k_proj、v_proj 的 按 列 拼接 形成 的 3 倍 大 和 矩阵， 即 
[Wol, Wo2, 全 93] 。 


10 参数 量 


需要 训练 的 参数 是 WN ~ W777 和 W%，j = 0,1,2,...,ns 一 1， 从 而 参数 数量 为 ng(4mn32 十 
3n2n7) + nin2 = 4n3ng 十 3n2n7ns 十 721722 。 

对 LLAMA-7B , 参数 数量 为 6607077376, 对 LLAMA-13B, ni = 32000, ma = 5120, ns = 40， 
ne 二 128，n7 二 13824，ns 二 40， 参 数 数量 为 128 5160 9600。 对 Baichuan-7B，n1 二 64000， 
na ~ ng 的 取 值 与 LLAMA-7B 相同 ， 参 数 数量 为 67 3814 9376。 对 Baichuan-13B ，mi = 64000， 
n2 ~ ng 的 取 值 与 LLAMA-13B 相同 ， 参 数 数量 为 130 1544 9600。 
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